#subespacio de hacking

HARVE: Edición de Vector de Recompensa para Robustez ante Hacking

Descubre HARVE, un método sin entrenamiento que edita el vector de recompensa para eliminar el reward hacking en modelos de lenguaje. Mejora robustez sin perder capacidad.

2026-06-03 · 2 min